import re
from preprocess import *
from content_indentify import *

# 内容提取：
content = ("      一、项目号：JJQ22C00093 采购执行编号：ACZB-ZFCG-2022062C 采购方式：竞争性磋商   "
           "二、项目名称：2022年度0.3米<em style='color:red'>遥感</em>影像  "
           "三、<em style='color:red'>中标</em>（成交）信息：  "
           "包号：1  供应商名称：重庆市地理信息和<em style='color:red'>遥感</em>应用中心  "
           "供应商地址：重庆市江北区电测村231号  "
           "<em style='color:red'>中标</em>（成交）金额： 1,080,000.00元   "
           "四、主要标的信息        "
           "包号：1                   "
           "名称       服务范围        服务要求        服务时间        服务标准                 "
           "2022年度0.3米<em style='color:red'>遥感</em>影像        "
           "采购人指定地点。        "
           "详见竞争性磋商文件        "
           "合同签订之日起至2022年12月30日。        "
           "详见竞争性磋商文件                "
           "五、评审专家名单  欧义兵，张军，李晓东  "
           "六、代理服务收费标准及金额   代理服务收费标准：详见竞争性磋商文件   代理服务费总计：15640.0元  "
           "七、公告期限  公告期限：1个工作日  "
           "八、其他补充事宜    "
           "九、凡...")
print('待分割的字符串为：', content)
# 预处理：
content = str_strip(content)
content = str_remove_htmlflag(content)
# 使用分段规则将内容分段：
seg_reg = r"\s*[一二三四五六七八九]、\s*"  # 段落分拆的正则表达式
lst = re.split(seg_reg, content)
i = 0
for s in lst:
    i += 1
    # 识别关键词
    kv = identify(s)
    if kv != None:
        print(i, kv['key'], ":", kv['value'])
#######################################################
# 包内容的识别：
content = "1  供应商名称：重庆市地理信息和<em style='color:red'>遥感</em>应用中心  "
print('待过滤前置编号的字符串为：', content)
print('过滤前置编号后的字符串为：', str_lstrip(content))
